The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
引号提取旨在从书面文本中提取引号。引号中有三个组成部分:来源是指引号的持有人,提示是触发词,内容是主体。引号提取的现有解决方案主要利用基于规则的方法和序列标签模型。尽管基于规则的方法通常会导致召回率低,但序列标记模型不能很好地处理带有复杂结构的报价。在本文中,我们提出了上下文和以前的标签增强净(Cofenet),以提取引号。Cofenet能够提取具有可变长度和复杂结构的组成部分的复杂报价。在两个公共数据集(即polnear和Riqua)和一个专有数据集(即Politicszh)上,我们表明我们的Cofenet在复杂的引号提取方面取得了最先进的表现。
translated by 谷歌翻译
近年来,在自学学习(SSL)方面取得了重大成功,这有助于各种下游任务。但是,攻击者可能会窃取此类SSL模型并将其商业化以获利,这对于保护其知识产权(IP)至关重要。大多数现有的IP保护解决方案都是为监督学习模型而设计的,不能直接使用,因为它们要求模型的下游任务和目标标签在水印嵌入过程中已知并获得,这在SSL的域中并非总是可以的。为了解决此类问题,尤其是在水印嵌入过程中下游任务多样化且未知时,我们提出了一种新型的黑盒水印解决方案,名为SSL-WM,以保护SSL模型的所有权。 SSL-WM将水印编码器的水印输入映射到不变的表示空间中,该空间会导致任何下游分类器产生预期的行为,从而允许检测到嵌入式水印。我们使用不同的SSL模型(包括基于对比度和基于生成的生成型)来评估许多任务,例如计算机视觉(CV)和自然语言处理(NLP)等许多任务。实验结果表明,SSL-WM可以有效地验证各种下游任务中被盗SSL模型的所有权。此外,SSL-WM对模型进行微调和修剪攻击非常强大。最后,SSL-WM还可以从评估的水印检测方法中逃避检测,从而证明了其在保护SSL模型IP时的有希望的应用。
translated by 谷歌翻译
跨言扬声器风格的转移旨在提取给定参考语音的语音样式,可以在任意目标扬声器的音色中复制。有关此主题的现有方法已经探索了利用语音级样式标签通过全球或本地规模样式表示进行样式转移。但是,有声读物数据集通常以本地韵律和全球类型的形式进行特征,并且很少伴有发言级风格的标签。因此,正确地将阅读方式转移到不同的扬声器上仍然是一项具有挑战性的任务。本文旨在介绍块的多尺度跨言式风格模型,以捕获有声读物的全球类型和本地韵律。此外,通过使用拟议的可切换对手分类器来解开扬声器的音色和样式,提取的阅读样式可适应不同扬声器的音色。实验结果证实,该模型设法将给定的阅读方式转移到新的目标扬声器上。在局部韵律和全球流派类型预测指标的支持下,进一步揭示了所提出的方法在多扬声器有声读物中的潜力。
translated by 谷歌翻译
对比性语言图像预测在学习网络尺度数据的视觉文本联合表示方面取得了巨大的成功,这表明了各种图像任务的显着“零射”概括能力。但是,如何有效地将这种新的语言图像预处理方法扩展到视频域仍然是一个开放的问题。在这项工作中,我们提出了一种简单而有效的方法,该方法将预验证的语言图像模型直接适应视频识别,而不是从头开始预处理新模型。更具体地说,为了捕获沿时间维度框架的远距离依赖性,我们提出了一种跨框架注意机制,该机制明确地跨帧交换信息。这样的模块是轻量级的,可以无缝地插入验证的语言图像模型中。此外,我们提出了一个特定于视频的提示方案,该方案利用视频内容信息生成歧视性文本提示。广泛的实验表明,我们的方法是有效的,可以推广到不同的视频识别方案。特别是,在完全监督的设置下,我们的方法在Kinectics-400上获得了最高1的精度为87.1%,而与SWIN-L和Vivit-H相比,使用量少12倍。在零拍摄的实验中,我们的方法超过了当前的最新方法 +7.6%和 +14.9%,而在两个流行协议下,TOP-1的准确性。在少数拍摄的情况下,当标记的数据非常有限时,我们的方法优于先前的最佳方法 +32.1%和 +23.1%。代码和型号可在https://aka.ms/x-clip上找到
translated by 谷歌翻译
在计算机视觉中,微调是利用预训练的视觉模型来执行下游任务的事实上的方法。但是,由于采用参数效率低下的全局更新并严重依赖于高质量的下游数据,因此在实践中部署它是非常具有挑战性的。最近,基于及时的学习添加了与任务相关的提示,以使下游任务适应预训练的模型,从而极大地提高了许多自然语言下游任务的性能。在这项工作中,我们扩展了这种显着的转移能力,从迅速的愿景模型中受益,以替代微调。为此,我们提出了参数有效的及时调整(亲调整),以使冷冻视觉模型适应各种下游视觉任务。实行调整的关键是基于及时的调整,即学习特定于任务的视觉提示,以使用预先训练的模型冷冻的下游输入图像。通过仅培训一些其他参数,它可以在基于CNN和基于变压器的各种架构上工作。广泛的实验证据表明,在广泛的视觉任务和场景中,主张表现优于微调,包括图像分类(通用对象,类失衡,图像腐败,对抗性稳定性和分布范围内的概括)和密集的预测任务例如对象检测和语义分割。
translated by 谷歌翻译
基于图形卷积的方法已成功应用于同质图上的表示学习,其中具有相同标签或相似属性的节点往往相互连接。由于这些方法使用的图形卷积网络(GCN)的同义假设,它们不适合异质图,其中具有不同标记或不同属性的节点往往相邻。几种方法试图解决这个异质问题,但是它们没有改变GCN的基本聚合机制,因为它们依靠求和操作员来汇总邻近节点的信息,这隐含地遵守同质假设。在这里,我们介绍了一种新颖的聚合机制,并开发了基于随机步行聚集的图形神经网络(称为RAW-GNN)方法。提出的方法将随机步行策略与图神经网络集成在一起。新方法利用广度优先的随机步行搜索来捕获同质信息和深度优先搜索以收集异性信息。它用基于路径的社区取代了传统社区,并基于经常性神经网络引入了新的基于路径的聚合器。这些设计使RAW-GNN适用于同质图和异质图。广泛的实验结果表明,新方法在各种同质图和异质图上实现了最先进的性能。
translated by 谷歌翻译
超声检查广泛用于甲状腺结节(良性/恶性)的临床诊断。但是,准确性在很大程度上取决于放射科医生的经验。尽管已经研究了甲状腺结节识别的深度学习技术。当前的解决方案主要基于静态超声图像,其时间信息有限,并且与临床诊断不一致。本文提出了一种通过详尽的超声视频和钥匙框架进行详尽的探索来自动识别甲状腺结节的新方法。我们首先提出一个检测 - 定位框架,以自动识别每个超声视频中典型结节的临床密钥框架。根据本地化的键框架,我们为甲状腺结节识别开发了一个钥匙框引导的视频分类模型。此外,我们引入了运动注意模块,以帮助网络关注超声视频中的重要帧,这与临床诊断一致。拟议的甲状腺结节识别框架已在临床收集的超声视频上进行了验证,与其他最先进的方法相比,表现出卓越的性能。
translated by 谷歌翻译
决策树是机器学习工具箱中最有用和最受欢迎的方法之一。在本文中,我们考虑了学习最佳决策树的问题,这是一个组合优化问题,该问题具有挑战性。文献中的一种常见方法是使用贪婪的启发式方法,这可能不是最佳的。最近,人们对使用各种方法(例如,基于整数编程,动态编程)学习最佳决策树已经引起了重大兴趣 - 为了实现计算可伸缩性,这些方法中的大多数都集中在具有二进制功能的分类任务上。在本文中,我们提出了一种基于分支机构(BNB)的新离散优化方法,以获得最佳决策树。与现有的定制方法不同,我们考虑具有连续功能的回归和分类任务。我们方法基础的基本思想是基于特征分布的分位数来拆分搜索空间 - 导致沿BNB迭代的基础优化问题的上限和下限。与现有的各种真实数据集中的浅最佳树相比,我们提出的算法Quant-BNB显示出显着的加速。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译